بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه علم و صنعت ایران
- نویسنده منیژه منتظریان
- استاد راهنما احمد اکبری عادل رحمانی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1378
چکیده
گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیابی به یک روش مناسب مرزبندی، سه روش تعیین مرز کلمات برگزیده و مقایسه شده اند. سپس ، از یک الگوریتم ساده و کارا در استخراج هجاهای عبارات استفاده شده است . بمنظور محدود ساختن دامنه گسترده لغات فارسی، کلمات را به اعداد دورقمی فارسی محدود ساخته ایم. بنابراین، از این پس هر جا که از مضامین "عبارت " و "کلمه" استفاده شده است ، منظور اعداد دو رقمی فارسی است . در بخش بعدی پروژه، ضرایب کپسترال و دلتاکپسترال از هجاهای بدست آمده از عبارات تلفظ شده توسط یک گوینده زن، استخراج می شوند. بمنظور دستیابی به ویژگی از گفتار که در تعلیم مدل شبکه عصبی بازشناخت بهترین کارآیی را داشته باشد، از ضرایب به دست آمده در تشکیل سه گونه متفاوت بردار ویژگی استفاده می شود. بمنظور مقایسه عملکرد مدلهای شبکه با روشهای مختلف تعلیم، در انجام مدلسازی از دو شبکه mlp و کوهونن بهره برده ایم. ساختارهای مختلفی از این دو مدل را تعلیم داده و نتایج حاصل از عملکرد آنها را با یکدیگر مقایسه می کنیم.
منابع مشابه
معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...
متن کاملمعرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
در این مقاله به معرفی شبکه های عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روشهای پیشتعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، می توان در تعلیم آنها اطلاعات فضایی-زمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی-زمانی برچسب آوایی آ...
متن کاملشبکه عصبی پیچشی با پنجرههای قابل تطبیق برای بازشناسی گفتار
Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...
متن کاملبازشناسی احساس از روی گفتار پیوسته فارسی
در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چن...
تصحیح خودکار غلط های تایپی فارسی به کمک شبکه عصبی مصنوعی ترکیبی
Automatic correction of typos in the typed texts is one of the goals of research in artificial intelligence, data mining and natural language processing. Most of the existing methods are based on searching in dictionaries and determining the similarity of the dictionary entries and the given word. This paper presents the design, implementation, and evaluation of a Farsi typo correction system u...
متن کاملمدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی
مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه علم و صنعت ایران
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023